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Verfahren und Anordnung zur Klassifizierung von Sprachsignalen 

Es wird ein Verfahren und eine Anordnung zurjaaesifizie- 
rung yon Sprache auf Bjsis der Wavelet-Transformation fur 
hfederralige Spra'cTncbdierverfahren beschriebeh. Das Ver- 
fahren bzw. die Anordnung els robuster Klassifizierer von 
Sprachsignalen fur die signalangepaSte Steuerung yon 
Sprachcodierverfehren zur Senkung der Bitrate bei gleich- 
bleibender Sprachqualitat oder zur Erhdhung der QualitSt 
bei gleicher Bitrate ist dadurch cherakterisiert. daS nach 
Segmentierung des Sprechsignals fur jeden Rahman eine 
Wavelet-Transformation berechnet wird. aus der mit Hilfe 
adaptK/er Schwellen ein Setz Parameter ermittelt wird. die 
ein Zustandsmodell steuern, das den Rahrrien in gegebenen- 
falls kurzere Unterrahmen aufteiit und jeden dieser Unter- 
rehmen in eine von mehreren, fur die Sprachcodierung 
typische Klassen einteilt. Das Sprachsignel wird auf Basis 
der Wavelet-Transformation fur jeden Zeitrahmen klassifi- 
ziert. Dadurch kann sowohl eine hohe Auflosung im Zeitbe- 
reich (Lokalisierung von Pulsen) els euch im Frequenzbereich 
(gute Mittelwerte) erreicht werden. Dieses Verfahren und 
der Klassifizierer eignen sich deshalb besonders zur Steue- 
rung bzw. Auswahl von Codebuchern in einem niederratigen 
Sprechcoder. Sie weisen uberdies eine hohe Unempfindtich- 
keit gegenuber HintergrundgerSuschen sowie eine niedrige 
Komplexitat auf. 



LU 

Q 



Die folgenden Angaben slnd den vom Anmalder •ingerelchten Unterlegen entnommen 

BUNDESDRUCKEREI 10.98 602 001/807 



8/25 



E 195 38 852 Al 



l 

Beschreibung 



Die Erfmdung betrifft ein Verfahren zur KJassifizie- 
rung von Sprachsignalen nach dem Oberbegriff des.Pa- 
tentanspruchs 1 sowie eine Schaltungsanordnung zur 
Durchf uhning des Verf ahrens. 

Sprachcodierverfahren und zugehdrige Schaltungs- 
anordnungen zur KJassifizierung von Sprachsignalen 
fur Bitraten unterhalb von 8 kbit pro Sekunde gewinnen 
zunehmend an Bedeutung. 

Die Hauptanwendungen hierfur sind unter anderem 
bei MultiplexGbertragung fur bestehende Festnetze und 
in Mobilfunksystemen der dritten Generation zu sehen. 
Auch fur die Bereitstellung von Diensten wie zum-Bei- 
spiel Videophonie werden Sprachcodierverfahren in 
diesem Datenratenbereich benotigt. 

Die meisten derzeit bekannten, hochqualitativen 
Sprachcodierverfahren fur Datenraten zwischen 
4 kbit/s und 8 kbit/s arbeiten nach dem Prinzip des Code 
Excited Linear Prediction (CELP)-Verfahrens wie es 
von Schroeder, MR, Atal, B.S.: Code-Excited Linear 
Prediction (CELP): High Quality Speech at Very Low 
Bit Rates, in Proceedings of IEEE International Confe- 
rence on Acoustics, Speech and Signal Processing, 1985, 
erstmals beschrieben worden ist. Dabei wird das 
Sprachsignal durch lineare Filterung von Anregungs- 
vektoren aus einem oder mehreren Codebuchern syn- 
thetisiert. in einem ersten Schritt werden die Koeffizien- 
ten des Kurzzeit-Synthesefilters durch LPC-Analyse 
aus dem Eingangs-Sprachvektor ermittelt und dann 
quantisiert. Im AnschluB daran werden die Anregungs- 
codebiicher durchsucht, wobei als Optimierungskriteri- 
um der perzeptuell gewichtete Fehler zwischen Origi- 
nal- und synthetisiertem Sprachvektor verwendet wird 
(=> Analyse durch Synthese). Obertragen werden 
schlieBlich nur die Indizes der optimalen Vektoren, aus 
denen der Decoder, den synthetisierten Sprachvektor 
wieder erzeugen kann. 

Viele dieser Codierverfahren, wie zum Beispiel der 
neue 8 kbit/s Sprachcoder von ITU-T, beschrieben in 
der Literaturstelle Study Group 15 Contribution — Q. 
12/15: Draft Recommendation G.729 — Coding Of Spe- 
ech at 8 kbit/s using Conjugate-Structure-Algebraic- 
Code- Excited- Linear- Predictive (CS- ACELP) Coding, 
1995, arbeiten mit einer festen Kombination von Code- 
buchern. Diese starre Anordnung berucksichtigt nicht 
die starken zeitlichen Anderungen der Eigenschaften 
des Sprachsignals und benotigt zur Codierung im 
Durchschnitt mehr Bits als erforderlich. Zum Beispiel 
bleibt das nur zur Codierung von periodischen Sprach- 
abschnitten erforderliche adaptive Codebuch auch wah- 
rend eindeutig nichtperiodischer Segmente eingeschal- 
tct 

Urn zu niedrigeren Datenraten im Bereich um 4 kbit/s 
bei moglichst wenig abfallender Qualitat zu gelangen, 
wurde deshalb in anderen Yeroffentlichungen, zum Bei- 
spiel in Wang, S„ Gersho, A.: Phonetically- Based Vector 
Excitation Coding of Speech at 3.6 kbit/s, Proceedings 
of IEEE International Conference On Acoustics, Speech 
and Signal Processing, 1989, vorgeschlagen, das Sprach- 
signal vor der Codierung in verschiedene typische Klas- 
sen einzuordnen. Im Vorschlag fur das GSM-Halbraten- 
system wird das Signal auf Basis des Langzeit-Pradik- 
tionsgewinns rahmenweise (alle 20 ms) in stimmhafte 
und stimmlose Abschnitte mit jeweils angepaBten Co- 
debuchern eingeteilt, wodurch die Datenrate fur die An- 
regung gesenkt und die Qualitat gegenuber dem Vollra- 
tensystem weitgehend gleich bleibt. Bei einer allgemei- 



neren Untersuchung wurde das Signal in die KJassen 
stimmhaft, stimmlos und Onset eingeteilt Dabei wurde 
die Entscheidung rahmenweise (hier 11,25 ms) auf Basis 
von Parametem — wie unter anderem Nulldurchgangs- 

5 rate, Reflexionskoeffizienten, Energie — durch lineare 
Diskriminierung gewonnen, siehe zum Beispiel Camp- 
bell J, Tremain, T.: Voiced/Unvoiced Classification Of 
Speech with Application to the US. Gouvernment LPC- 
lOe Algorithm, Proceedings of IEEE International Con- 

io ference On Acoustics, Speech and Signal Processing, 
1986. Jeder KJasse wird wiederum eine bestimmte Kom- 
bination von Codebuchern zugeordnet, so daB die Da- 
tenrate auf 3,6 kbit/s bei mittlerer Qualitat gesenkt wer- 
den kann. 

15 All diese bekannten Verfahren ermitteln das Ergebnis 
ihrer Klassifizierung aus Parametem, die durch Berech- 
hung von Zeitmittelwerten aus einem Fenster konstan- 
ter Lange gewonnen wurden. Die zeitliche Auflosung ist 
also durch die Wahl dieser Fensteriange fest vorgege- 

20 ben. Verringert man die Fensteriange, so sinkt auch die 
Genauigkeit der Mittelwerte. Erhoht man dagegen die 
Fensteriange, so kann der zeitliche Verlauf der Mittel- 
werte dem Verlauf des ihstationaren Sprachsignals nicht 
mehr folgen. Dies gilt besonders fur stark instationare 

25 Obergange (Onsets) von stimmlosen auf stimmhafte 
Sprachabschnitte. Gerade die zeitlich richtige Repro- 
duktion der Lage der ersten signifikanten Pulse stimm- 
hafter Abschnitte ist aber wichtig fur die subjektive Be- 
urteilung eines Codierverfahrens. Weitere Nachteile 

30 herkommlicher KJ ass ifizie rungs verfahren sind oftmals 
eine hohe Komplexitat oder starke Abhangigkeit von in 
der Praxis immer vorhandenen Hintergrundgerauschea 
Der Erfindung liegt die Aufgabe zugrunde, ein Ver- 
fahren und einen KJassifizierer von Sprachsignalen fur 

35 die signalangepaBte Steuerung von Sprachcodierver- 
fahren zur Senkung der Bitrate bei gleichbleibender 
Sprachqualitat bzw. zur Erhohung der Qualitat bei glei- 
cher Bitrate zu schaffen, die das Sprachsignal mit Hilfe 
der Wavelet-Transformation fur jeden Zeitraum klassi- 

*o fizieren, wobei sowohl eine hohe Auflosung im Zeitbe- 
reich als auch im Frequenzbereich erreicht werden solL 

Die Losung fur das erfindungsgemaBe Verfahren ist 
im Kennzeichen des Patentanspruchs 1 charakterisiert 
und die fur den KJassifizierer im Kennzeichen des Pa- 

«5 tentanspruchs 5. 

Weitere Lpsungen bzw. Ausgestaltungen der Erfin- 
dung ergeben sich aus den Kennzeichen der Patentan- 
spruche2— 4. 

Hier werden ein Verfahren und eine Anordnung be- 
so schrieben, die das Sprachsignal auf Basis der Wavelet- 
Transformation fur jeden Zeitrahmen klassifizieren. Da- 
durch kann — den Anforderungen des Sprachsignals 
entsprechend — sowohl eine hohe Auflosung im Zeitbe- 
reich ( Lo kali si e rung von Pulsen) als auch im Frequenz- 
55 bereich (gute Mittelwerte) erreicht werden. Die KJassi- 
. ftzierung eignet sich deshalb besonders zur Steuerung 
bzw. Auswahl von Codebuchern in einem niederratigen 
Sprachcoder. Dabei weist das Verfahren und die Anord- 
nung eine hohe Unempfindlichkeit gegenuber Hinter- 
60 grundgerauschen sowie eine niedrige Komplexitat auf. 
Bei der Wavelet-Transformation handett es sich — ahn- 
lich der Fourier-Transformation — um ein mathemati- 
sches Verfahren zur Bildung eines Modells fur ein Signal 
oder System. Im Gegensatz zur Fourier-Transformation 
65 kann man aber im Zeit- und Frequenz- bzw. Skalie- 
rungsbereich die Auflosung den Anforderungen ent- 
sprechend flexibel anpassen. Die Basisfunktionen der 
Wavelet-Transformation werden durch Skalierung und 
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Verschiebung aus einern sogenannten Mother- Wavelet 
erzeugt und haben BandpaBcharakter. Die Wavelet- 
Transformation ist somit erst durch Angabe des zuge- 
horigen Mother-Wavelets eindeutig definiert. Hinter- 
grunde und Details zur mathematischen Theorie sind 
beispielsweise aufgezeigt von Rioul O., Vetterli, M.: Wa- 
velets and Signal Processing, IEEE Signal Processing 
Magazine, Oct 1 99 1 . 

Aufgrund ihrer Eigenschaften eignet sich die Wave- 
let-Transformation gut zur Analyse instationarer Sign a - 
le. Ein weiterer Vorteilist die Exist enz schneller Algo- 
rithmen, mit denen eine effiziente Berechnung der Wa- 
velet-Transformation durchgefuhrt werden kann. Er- 
folgreiche Anwendungen im Bereich der Signalverar- 
beitung findet man unter anderem in der Bildcodierung, 
bei Breitbandkorrelationsverfahren (zum Beispiel fur 
Radar) sowie zur Sprachgrundfrequenzschatzung, wie 
unter anderem aus den folgenden Literaturstellen her- 
vorgeht Mallat, S., Zhong, S.: Characterization of Si- 
gnals from Multiscale Edges, IEEE Transactions on Pat- 
tern Analysis and Machine Intelligence, July, 1992 sowie 
Kadambe, S. Boudreaux -Battels, G.F.; Applications of 
the Wavelet Transform for Pitch Detection of Speech 
Signals, IEEE Transactions on Information Theory, 
March 199Z 

Die Erfindung wird im folgenden anhand eines Aus- 
fuhrungsbeispiels naher beschrieben. Fur die Beschrei- 
bung des Verfahrens soil der prinzipielle Aufbau eines 
KJassifizierers nach Fig. 1 verwendet werden. Zunachst 
erfolgt die Segmentierung des Sprachsignals. Das 
Sprachsignal wird in Segmente konstanter Lange einge- 
teilt, wobei die Lange der Segmente zwischen 5 ms und 
40 ms betragen solL Zur Vermeidung von Randeffekten 
bei der sich anschlieBenden Transformation kann eine 
der drei folgenden Techniken angewandt werden: 

— Das Segment wird an den Grenzen gespiegelt. 

— Die Wavelet-Transformation wird im kleineren 
Intervall (LV2.N — L/2) berechnei und der Rahmen 
nur um den konstanten Versatz L/2 verschoben, so 
daB die Segmente uberlappen. Dabei ist L die Lan- 
ge eines auf den zeitlichen Ursprung zentrierten 
Wavelets, wobei die Bedingung N > L gelten muB. 

— An den Randem des Segmentes wird mit den 
vorangegangenen bzw. zukunftigen Abtastwerten 
aufgefullt 

Danach erfolgt eine diskrete Wavelet -Transforma- 
tion. Fur ein solches Segment s(k), wird eine zeitdiskrete 
Wavelet-Transformation (DWT) Sh(m, n) bezuglich ei- 
nes Wavelets h(k) mit den ganzzahligen Parametern 
Skalierung in und Zeitverschiebung n berechnet. Diese 
Transformation ist durch 



k=N„ 



definiert, wobei N u und No die durch die gewahlte Seg- 
mentierung vorgegebene untere bzw. obere Grenze des 
Zeitindex k darstellen. Die Transformation muB nur fur 
den Skalierungsbereich 0<m<M und den Zeitbereich 
im Intervall (O, N) berechnet werden, wobei die Kon- 
stante M in Abhangigkeit von ao so groB gewahlt wer- 
den muB, daB die niedrigsten Signalfrequenzen im 
Transformationsbereich noch ausreichend gut repra- 
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sentiert werden. 

Zur Klassifizierung von SpractisignaJen reicht es in 
der Regel aus, das Signal zu dyadischen Skalierung en 
(ao = 2) zu betrachten. LaBt sich das Wavelet h(k) durch 
eine sogenannte "Multiresolution-Analyse" gemaB Rio- 
ul, Vetterli mittels einer iterierten Filterbank darstellen, 
so kann man zur Berechnung der dyadischen Wavelet- 
Transformation in der Literatur angegebene effiziente, 
rekursive Algorithmen verwenden. In diesem Fall 
(ao = 2) ist eine Zerlegung bis maximal M = 6 ausrei- 
chend. Fur die Klassifizierung eignen sich besonders 
Wavelets mit wenigen signifikanten Oszillationszyklen, 
aber dennoch moglichst glattem Funktionsverlauf. Bei- 
spielsweise konnen kubische Spline-Wavelets oder or- 
thogonale Daubechies- Wavelets geringer Lange ver- 
wendet werden. 

Hiernach erfolgt die KJasseneinteilung. Das Sprach- 
segment wird auf Basis der Transformationskoeffizien- 
ten in KJassen eingeteilt Um eine ausreichend feine 
Zeitlauflosung zu erreichen, wird das Segment noch in P 
Subrahmen eingeteilt, so daB fur jeden Subrahmen ein 
KJassifizierungsergebnis ausgegeben wird. Fur einen 
Einsatz in niederratigen Sprachcodierverfahren wurde 
die Unterscheidung der folgenden KJassen vorgenom- 
men: 

( 1 ) Hintergrundrauschen/stimmlos, 

(2) Signalubergangervoicing onsets", 

(3) Periodisch/stimmhaft 

Beim Einsatz in bestimmten Codierverfahren kann es 
sinnvoll sein, die periodische KJasse noch weiter aufzu- 
teilen, etwa in Abschnitte mit uberwiegend tieffrequen- 
ter Energie oder eher gleichmaBig verteilter Energie. 
Optional kann deshalb auch eine Unterscheidung von 
mehr als drei KJassen durchgefuhrt werden. 

Im AnschluB daran erfolgt in einem entsprechenden 
Prozessor die Parameterberechnung. Zunachst wird aus 
den Transformationskoeffizienten Sh(nvn) ein Satz von 
Parametern bestimmt, mit deren Hilfe dann anschlie- 
Bend die endgultige KJasseneinteilung vorgenommen 
werden kann. Die Auswahl der Parameter Skalierungs- 
DifferenzmaB (P ( ), zeitliches DifferenzmaB (P2) und Pe- 
riodizitatsmaB (P3) erwiesen sich dabei als besonders 
gunstig, da sie einen direkten Bezug zu den definierten 
KJassen ( 1 ) bis (3) aufwetsen. 

— Fur P| wird die Varianz der Energie der DWT- 
Transformationskoeffizienten uber alle Skalie- 
rungsbereiche berechneL Auf Basis dieses Parame- 
ters kann rahmen weise — also fur ein relativ gro- 
bes Zeitraster — festgestellt werden, ob das 
Sprachsignal stimmlos ist bzw. nur Hintergrund- 
rauschen vorliegt 

— Um P2 zu ermitteln, wird zunachst die mittlere 
Energiedifferenz der Transformationskoeffizienten 
zwischen dem aktuellen und dem vergangen Rah- 
men berechnet Nun werden fur Transformations- 
koeffizienten feiner Skalierungsstufe (m klein) die 
Energiedifferenzen zwischen benachbarten Sub- 
rahmen ermittelt und mit der Energiedifferenz fur 
den Gesamtrahmen verglichea Dadurch kann ein 
MaB fur die Wahrscheinlichkeit eines Signaluber- 
gangs (zum Beispiel stimmlos auf stimmhaft) fur 
jeden Subrahmen — also fur ein feines Zeitraster 

— bestimmt werden. 

— Fur P3 werden rahmenweise die lokalen Maxima 
von Transformationskoeffizienten grober Ska lie- 
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rungsstufe (m nahe bei M) bestimmt und geprQft, 
ob diese in regelraaBigen Abstanden auftreten. Als 
lokale Maxima werden dabei die Spitzen bezeich- 
net, die einen gewissen Prozentsatz T des globalen 
Maximums des Rahmens Obersteigen. 

Die fur diese Parameterberechnungen erforderlichen 
Schwellwerte werden in Abhangigkeit vom aktuellen 
Pegel des Hintergrundgerausches adaptiv gesteuert, 
wodurch die Robustheit des Verfahrens in gestdrter 
Umgebung gesteigert wird. 

Darauffolgend wird die Auswertung vorgenommen. 
Die drei Parameter werden der Auswerteeinheit in 
Form von "Wahrscheinlichkeiten" (auf den Wertebe- 
reich (0,1) abgebildete GroBen) zugefuhrt- Die Aus- 
werteeinheit selbst trifft das endgultige Kiassifizie- 
rungsergebnis fur jeden Subrahmen auf Basis eines Zu- 
standsmodells. Dadurch wird das Gedachtnis der fur 
vorangegangene Subrahmen getroffenen Entscheidun- 
gen berucksichtigt AuBerdem werden nicht sinnvolle 
Ubergange, wie zum Beispiel direkter Sprung von 
"stimmlos" auf "stimmhaft", verboten. Als Ergebnis wird 
schlieBlich pro Rahmen ein Vektor mit P Komponenten 
ausgegeben, der das KJassifizierungsergebnrs fur die P 
Subrahmen enthalt 

In den Fig. 2a und 2b sind die Klassifizierungsergeb- 
nisse fur das Sprachsegment " ... parcel, I'd like 
einer englischen Sprecherin exemplarisch dargestellt. 
Dabei wurden die Sprachrahmen der Lange 20 ms in 
vier equidistante Subrahmen zu jeweils 5 ms eingeteilt- 
Die DWT wurde nur fur dyadische Skaiierungsschritte 
ermitteh und auf Basis von kubischen Spline-Wavelets 
mit Hilfe einer rekursiven Filterbank implementiert. Die 
drei Signalklassen werden mit 0,1,2 in der gleichen Rei- 
henfolge wie oben bezeichnet Fur Fig. 2a wurde Tele- 
fonband-Sprache (200 Hz bis 3400 Hz) ohne Stoning 
verwendet, wahrend fur Fig. 2b zusatzlich Fahrzeugge- 
rausche mit einem durchschnittlichen Signal-Rausch- 
Abstand von 10 dB Gberlagert wurden. Der Vergleich 
der beiden Abbildungen zeigt, daB das Klassifizierungs- 
ergebnis nahezu unabhangig vom Rauschpegel ist. Mit 
Ausnahme kJeinerer Unterschiede, die fur Anwendun- 
gen in der Sprachcodierung irrelevant sind, werden die 
perzeptuell wichtigen periodischen Abschnitte sowie 
deren Anfangs- und Endpunkte in beiden Fallen gut 
lokalisiert. Durch Auswertung einer groBen Vielfalt un- 
terschiedlichen Sprachmaterials ergab sich, daB der 
KJassinzierungsfehler deutlich unter 5% fur Signal- 
Rausch-Abstande oberhalb 10 dB liegt. 

Der KJassifizierer wurde zusatzlich fur folgenden ty- 
pischen Anwendungsfall getestet: Ein CELP-Codierver- 
fahren arbeitet bei einer Rahmenlange von 20 ms und 
teilt diesen Rahmen zur effizienten Anregungscodie- 
rung in vier Subrahmen a 5 ms ein. Fur jeden Subrah- 
men soil entsprechend der drei oben genannten Signal- 
klassen auf Basis des Klassifizierers eine angepaBte 
Kombination von Codebuchern verwendet werden. Es 
wurde fur jede Klasse ein typisches Codebuch mit je- 
weils 9 Bit/Subrahmen zur Codierung der Anregung 
eingeseut, wodurch sich eine Bitrate von lediglich 
1800 Bit/s fur die Anregungscodierung (ohne Gain) er- 
gab. Es wurden fur die stimmiose Klasse ein GauB'sches 
Codebuch, fur die Onset-KJasse ein Zwei-Puls-Code- 
buch und fur die periodische Klasse ein adaptives Code- 
buch verwendet Schon fur diese einfache, mit festen 
Subrahmenlangen arbeitende Konstellation von Code- 
buchern ergab sich eine gut verstandliche Sprachquali- 
tat, jedoch noch mit rauhem Klang in periodischen Ab- 
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schnitten. Zum Vergleich sei erwahnt, daB in ITU-T, 
Study Group 15 Contribution- Q- 12/15: Draft Recom- 
mendation G. 729 - Coding Of Speech at 8 kbit/s using 
Conjugate-Structure-Algebraic-Code-Excited-Unear- 
Predictive (CS-ACELP) Coding, 1995, fur die Codierung 
der Anregung (ohne Gain) 4800 Bit/s bendtigt werden, 
um Leitungsqualitat zu erzielen. Selbst in Gerson, I. et 
aU Speech and Channel Coding for the Half-Rate GSM 
Channel ITG-Fachbericht "Codierung fur Quelle, Kanal 
und Obertragung*, 1994, werden dafur noch 2800 bit/s 
verwendet, um Mobilfunkqualitat sicherzustellen. 

Patentanspruche 

1. Verfahren zur Klassifizierung von Sprache, ins- 
besondere Sprachsignalen far die signalangepaBte 
Steuerung von Sprachcodierverfahren zur Sen- 
kuhg der Bitrate bei gleichbleibender Sprachquali- 
tat oder zur Erhohung der Qualitat bei gleicher 
Bitrate, dadurch gekennzeichnet, daB nach einer 
Segmentierung des Sprachsignals fur jeden gebil- 
deten Rahmen eine Wavelet-Transformation be- 
rechnet wird, aus der mit Hilfe adaptiver Schwellen 
ein Satz Parameter (Pi — 3) ermitteh wird, die ein 
Zustandsmodel! steuern, das den Sprachrahmen in 
Unterrahmen aufteilt und jeden dieser Unterrah- 
men in eine von mehreren, fur die Sprachcodierung 
typische Klassen unterteilt 

2. Verfahren nach Patentanspruch 1, dadurch ge- 
kennzeichnet, daB das Sprachsignal in Segmente 
konstanter Lange eingeteilt wird, und daB zur Ver- 
meidung von Randeffekten bei der sich anschlie- 
Benden Wavelet-Transformation entweder das 
Segment an den Grenzen gespiegelt wird, oder die 
Wavelet-Transformation im kleineren Intervall 
(L72, N — U2) berechnet wird und der Rahmen nur 
um den konstanten Versatz U2 verschoben wird, 
so daB die Segmente sich uberlappen oder daB an 
den Randern des Segments mit den vorangegange- 
nen bzw. zukunftigen Abtastwerten auf gefullt wird. 

3. Verfahren nach Patentanspruch 1 oder 2, da- 
durch gekennzeichnet, daB fur ein Segment s(k) ei- 
ne zeitdiskrete Wavelet-Transformation (DWT) 
Sh(mn) bezuglich eines Wavelets h(k) mit den ganz- 
zahligen Parametern Skalierung in und Zeitver- 
schiebung n berechnet wird, und daB das Segment 
auf Basis derTransformationskoeffizienten in Klas- 
sen eingeteilt wird, insbesondere zur Erreichung 
einer feinen Zeitauflosung noch in P Subrahmen 
eingeteilt und fur jeden Subrahmen ein Klassifizie- 
rungsergebnis errechnet und ausgegeben wird. 

4. Verfahren nach einem der Patentanspruche 1—3, 
dadurch gekennzeichnet, daB aus dem Transforma- 
tionskoeffizienten Sb(mn) ein Satz von Parametern, 
insbesondere Skalierungs-DifferenzmaB (Pi), zeitli- 
ches DifferenzmaB (P 2 ) und Period izitatsmaB (P 3 ) 
bestimmt wird, mit deren Hilfe dann anschlieBend 
die endgultige Klasseneinteilung vorgenommen 
wird, wobei die fur diese Parameterberechnungen 
erforderlichen Schwellwerte in Abhangigkeit vom 
aktuellen Pegel des Hintergrundgerausches adap- 
tiv gesteuert werden. 

5. Anordnung, insbesondere KJassifizierer zur 
Durchfuhrung des Verfahrens nach einem der Pa- 
tentanspruche 1 —4, dadurch gekennzeichnet, daB 
die Eingangssprache einer Segmentierungseinrich- 
tung zugefuhrt wird, daB nach der Segmentierung 
der Eingangssprache fur jeden gebildeten Rahmen 
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bzw. fur jedes gebildete Segment durch einen Pro- 
zessor eine diskrete Wavelet-Transformation be- 
rechnet wird, daB daraus mit Hilfe adaptiver 
Schwellen ein Satz Parameter (P| — P 3 ) ermittelt 
wird, die als EingangsgroBen einem Zustandsmo- 
dell zugefuhrt werden, das seinerseits den Sprach- 
rahmen in Unterrahmen aufteilt und jeden dieser 
Unterrahmen in eine von mehreren fur die Sprach- 
codierung typische KJassen einteilt 



Hierzu 3 Seite(n) Zeichnungen 
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